
Hamming Loss는 주로 멀티라벨 분류 문제에서 사용되는 성능 지표로, 예측한 라벨과 실제 라벨 간에 불일치한(잘못 예측된) 라벨의 비율을 나타냅니다. 직관적으로는 “전체 라벨 중 몇 퍼센트가 틀렸는가”를 측정합니다. 정의(이진 라벨 벡터 y, 예측 ŷ, 라벨 수 L, 샘플 수 N): - 한 샘플에 대한 Hamming Loss = (1/L) * sum_{j=1..L} XOR(y_j, ŷ_j) - 데이터셋 전체 Hamming Loss = (1/(N*L)) * sum_{i=1..N} sum_{j=1..L} XOR(y_{ij}, ŷ_{ij}) 값의 범위는 0에서 1까지이며, 값이 작을수록 성능이 좋음을 의미합니다. 예: 실제 [1,0,1,0], 예측 [1,1,0,0]이면 XOR 결과는 [0,1,1,0]이고 한 샘플의 Hamming Loss = 2/4 = 0.5입니다. 주의사항 및 특징: - 각 라벨을 독립적으로 취급하므로 라벨 간의 상관관계를 반영하지 않습니다. - 라벨 불균형(예: 대부분 음성) 상황에서는 전체 비율이 낮게 나와 실제 성능을 과대평가할 수 있습니다. - 멀티클래스(단일 정답) 문제에서 원-핫 인코딩된 벡터에 그대로 적용하면 비해석적인 값(틀린 경우 2/L 등)이 나오므로, 단일 라벨 분류에는 보통 0-1 loss(정답/오답 비율)를 사용합니다. - Hamming Loss는 라벨당 오류의 평균이므로, 마이크로 평균 관점의 오류율과 유사합니다. 요약하면, Hamming Loss는 멀티라벨 문제에서 라벨 단위로 잘못 예측된 비율을 간단히 측정하는 지표로, 라벨별 독립적 오류를 알고자 할 때 유용합니다.